Techniques de localisation et de résumé des données dans les systèmes P2P. (Data Localization and Summarization Techniques in P2P Systems)
نویسنده
چکیده
The goal of this thesis is to contribute to the development of data localization and summarization techniques in P2P environments. At the application layer, we focus on exploiting the semantics that can be captured from the shared data. These semantics can improve the search efficiency, and allow for more query facilities. To this end, we introduce a novel data indexing technique into P2P systems that relies on linguistic summarization. Our summaries are synthetic, multidimensional views that support locating relevant data based on their content. More interestingly, they provide intelligible data representations which may return approximate answers for user queries. At the P2P network layer, we focus on exploiting the characteristics of the overlay topology, namely its clustering features, in order to reduce the traffic overhead generated by flooding-based mechanisms. This allows to improve the performance of P2P systems, irrespective of the employment of techniques relying on data semantics at the application layer. To this end, we define a cluster-based search technique which is implemented over a connectivity-based clustering protocol. A connectivity-based clustering protocol aims to discover the natural organization of nodes, based on their connectivity. Thus, it delimits the boundaries of non-overlapping subgraphs (i.e. clusters) which are loosely connected, and in which nodes are highly connected. In this thesis, we first survey P2P data sharing systems. We focus on the evolution from simple file-sharing systems with limited functionalities, to Peer Data Management Systems (PDMSs) that support advanced applications with more sophisticated data management techniques. Second, we propose a solution for managing linguistic summaries in P2P systems. We define an appropriate summary model and efficient techniques for summary creation and maintenance. We also discuss query processing in the context of summaries. Third, we propose a cluster-based search technique on top of existing connectivity-based clustering protocols. We focus on reducing redundant query messages which unnecessarily overload the system. We validated our solutions through simulation and the results show good performance.
منابع مشابه
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Résumé. Les systèmes pair-à-pair (peer-to-peer, P2P, égal-à-égal) se sont popularisés ces dernières années avec les systèmes de partage de fichiers sur Internet. De nombreuses recherches concernant l’optimisation de la localisation des données ont émergé et constituent un axe de recherche très actif. La prise en compte de la sémantique du contenu des pairs dans le routage des requêtes permet d’...
متن کاملUne Approche Ontologique d'Intégration de Sources de Données dans un Environnement de Pair à Pair
Résumé. Les systèmes pair à pair (P2P) sont des systèmes à grande échelle, auto-organisés et répartis. Ils permettent la gestion des ressources de manière totalement décentralisée. Cependant, l'intégration sémantique des données structurées, hétérogènes et distribuées à travers ces systèmes s'avère un problème complexe. L'objectif de ce travail consiste à proposer une approche dirigée par la sé...
متن کاملFouille de données dans les systèmes Pair-à-Pair pour améliorer la recherche de ressources
Résumé. La quantité de sources d’information disponible sur Internet fait des systèmes d’échanges pair-à-pair (P2P) un genre nouveau d’architecture qui offre à une large communauté des applications pour partager des fichiers, des calculs, dialoguer ou communiquer en temps réel. Dans cet article, nous proposons une nouvelle approche pour améliorer la localisation d’une ressource sur un réseau P2...
متن کاملSummary management in unstructured P2P systems
In this paper, we propose managing data summaries in unstructured P2P systems. Our summaries are intelligible views with two main virtues. First, they can be directly queried and used to approximately answer a query. Second, as semantic indexes, they support locating relevant nodes based on data content. The performance evaluation of our proposal shows that the cost of query routing is minimize...
متن کاملUn Modèle Générique de Garbage Collection pour les Eéditeurs Collaboratifs Basé sur l'Approche TO dans les environnements P2P et mobiles
Résumé— L’approche de transformée opérationnelle (TO) est l'une des meilleurs techniques qui permet de supporter la collaboration dans les environnements mobiles et distribués. Les éditeurs collaborative en temps réel utilisent cette technique pour la réconciliation des données modifiées simultanément par plusieurs utilisateurs. Cependant, l’approche TO utilise un log qui peut atteindre une tai...
متن کامل